你好!我是瀚文 (Han-Wen),統計系畢業,熱愛數據卻在求職路上意外闖進 Java 後端世界的學習者。
大學期間,有幸在台新銀行擔任 AI 實習生,親手使用 Python (Transformers
, Gradio
, OpenAI API
) 建立了 GPT-4 自動化評測框架,這段經驗為我打開了數據科學的大門。雖然成果豐碩(例如提升了40%的評測效率),但我最大的收穫,是深刻體會到:所有亮眼的 AI 模型,其根基都建立在扎實的數據處理之上。
這份經驗點燃了我深入數據領域的熱情。
退伍後,我懷著這份熱情,應徵了一份職稱是**「資料工程師」**的工作。職務說明 (JD) 上寫滿了令人興奮的關鍵字:ETL/ELT、PySpark、SQL 與 AWS 雲端服務——這正是我渴望實踐的戰場。
然而,實際入職後我才發現,這是許多數據新手的共同挑戰:名為「數據工程師」,實則為**「Java 後端維護」**的職位。
這次的「繞路」,沒有澆熄我的熱情,反而讓我更加確定:紙上談兵不如親身實踐,掌握真正的數據核心技能,是我唯一的道路。
這就是我開啟這次 iThome 鐵人賽挑戰的初衷。
在這 30 天的挑戰中,我們將扮演數據偵探,圍繞著一個真實的商業場景,學習並駕馭以下核心工具:
Python: 我們將駕馭 Python 的「數據分析三劍客」:NumPy (打好科學計算的基礎)、Pandas (整理與操作數據的瑞士刀)、以及 Matplotlib (讓數據開口說話的畫家)。
SQL: 我們將學習與資料庫對話的通用語言,從中高效地提取我們需要的資訊。
數據集:巴西 Olist 電商數據集
這不僅是一堆 CSV 檔案,而是一個真實電商平台的完整縮影。將從客戶 (customers
)、賣家 (sellers
) 的基本資料出發,追蹤每一筆訂單 (orders
)** 的生命週期,拆解訂單內的商品 (items
) 與支付 (payments
) 細節,最後再分析顧客留下的評論 (reviews
),一步步揭開商業行為背後的秘密。
olist_customers_dataset.csv:買家個人資訊表格。
olist_order_items_dataset.csv:訂單商品資訊。
olist_order_payments_dataset.csv:訂單支付資訊。
olist_order_reviews_dataset.csv:訂單評論。
olist_orders_dataset.csv:訂單物流資訊。
olist_products_dataset.csv:商品資訊。
olist_geolocation_dataset.csv:各郵編代碼所指地區的經緯度。
olist_sellers_dataset.csv:賣家資訊。
product_category_name_translation.csv:商品葡萄牙文翻譯英文對應格。
本系列的核心方法論是**「實戰驅動,做中學」**。將直接以 Olist 電商專案貫穿全程,遇到不懂的語法或觀念時,再暫停下來查閱資料,搞懂之後立刻回到專案中應用。我相信,這是內化知識最有效率的方式。
第一週:基石建設 - 環境建置與 NumPy 基礎
第二至三週:核心攻略 - Pandas 數據處理與清洗
第四週:視覺化呈現與 SQL 資料庫整合
這是我對自己的承諾,也是對各位讀者的邀請。在接下來的 30 天,我會每天分享我的學習進度、實作程式碼與筆記。
所有本系列使用的程式碼,都會同步更新到我的 GitHub 專案中:
點擊這裡前往我的 GitHub 專案
如果您也正走在數據的道路上,或對這趟旅程感興趣,歡迎「追蹤」我的系列文、在 GitHub 上給我星星 ⭐、或在文章底下留言提問,讓我們一起討論、共同學習,一步步地踏實前行!